68 research outputs found
Improving the efficiency of search engines : strategies for focused crawling, searching, and index pruning
Ankara : The Department of Computer Engineering and the Instıtute of Engineering and Science of Bilkent University, 2009.Thesis (Ph. D.) -- Bilkent University, 2009.Includes bibliographical references leaves 157-169.Search engines are the primary means of retrieval for text data that is abundantly
available on the Web. A standard search engine should carry out three
fundamental tasks, namely; crawling the Web, indexing the crawled content, and
finally processing the queries using the index. Devising efficient methods for these
tasks is an important research topic. In this thesis, we introduce efficient strategies
related to all three tasks involved in a search engine. Most of the proposed
strategies are essentially applicable when a grouping of documents in its broadest
sense (i.e., in terms of automatically obtained classes/clusters, or manually
edited categories) is readily available or can be constructed in a feasible manner.
Additionally, we also introduce static index pruning strategies that are based on
the query views.
For the crawling task, we propose a rule-based focused crawling strategy that
exploits interclass rules among the document classes in a topic taxonomy. These
rules capture the probability of having hyperlinks between two classes. The rulebased
crawler can tunnel toward the on-topic pages by following a path of off-topic
pages, and thus yields higher harvest rate for crawling on-topic pages.
In the context of indexing and query processing tasks, we concentrate on conducting
efficient search, again, using document groups; i.e., clusters or categories.
In typical cluster-based retrieval (CBR), first, clusters that are most similar to a
given free-text query are determined, and then documents from these clusters are
selected to form the final ranked output. For efficient CBR, we first identify and
evaluate some alternative query processing strategies. Next, we introduce a new
index organization, so-called cluster-skipping inverted index structure (CS-IIS).
It is shown that typical-CBR with CS-IIS outperforms previous CBR strategies
(with an ordinary index) for a number of datasets and under varying search parameters.
In this thesis, an enhanced version of CS-IIS is further proposed, in
which all information to compute query-cluster similarities during query evaluation
is stored. We introduce an incremental-CBR strategy that operates on top
of this latter index structure, and demonstrate its search efficiency for different
scenarios.
Finally, we exploit query views that are obtained from the search engine query
logs to tailor more effective static pruning techniques. This is also related to the
indexing task involved in a search engine. In particular, query view approach
is incorporated into a set of existing pruning strategies, as well as some new
variants proposed by us. We show that query view based strategies significantly
outperform the existing approaches in terms of the query output quality, for both
disjunctive and conjunctive evaluation of queries.Altıngövde, İsmail SengörPh.D
Static index pruning in web search engines
Static index pruning techniques permanently remove a presumably redundant part of an inverted file, to reduce the file size and query processing time. These techniques differ in deciding which parts of an index can be removed safely; that is, without changing the top-ranked query results. As defined in the literature, the query view of a document is the set of query terms that access to this particular document, that is, retrieves this document among its top results. In this paper, we first propose using query views to improve the quality of the top results compared against the original results. We incorporate query views in a number of static pruning strategies, namely term-centric, document-centric, term popularity based and document access popularity based approaches, and show that the new strategies considerably outperform their counterparts especially for the higher levels of pruning and for both disjunctive and conjunctive query processing. Additionally, we combine the notions of term and document access popularity to form new pruning strategies, and further extend these strategies with the query views. The new strategies improve the result quality especially for the conjunctive query processing, which is the default and most common search mode of a search engine
Evolution of web search results within years
We provide a first large-scale analysis of the evolution of query results obtained from a real search engine at two distant points in time, namely, in 2007 and 2010, for a set of 630,000 real queries
Diversity and novelty in information retrieval
This tutorial aims to provide a unifying account of current research on diversity and novelty in different IR domains, namely, in the context of search engines, recommender systems, and data streams
BigDiv: Arama Sonuçlarında Cevap Çeşitlendirme için Verimli ve Ölçeklenebilir Yöntemler
Modern kelime-tabanlı arama sistemleri, cevap listesinde sorguyla en ilgili ve aynı zamanda
sorgunun farklı anlam/yorumlarını en geniş şekilde kapsayabilen (yani, çeşitlendirilmiş)
cevapları en üst sıralarda getirmeyi hedeflerler. Bu projenin amacı, genel-amaçlı veya dikey
arama sistemlerinde ihtiyaç duyulan sorgu cevabı çeşitlendirme işlevi için dağıtık mimari
üzerinde ve sistemin diğer bileşenleriyle uyumlu olarak etkin şekilde çalışabilecek verimli ve
ölçeklenebilir yöntemler geliştirmektir. Bu amaca ulaşmak için dört ana hedef doğrultusunda
çalışmalar gerçekleştirilmiştir.
İlk hedefimiz olan 'Çeşitlendirme yöntemlerinde verimlilik' kapsamında çok-boyutlu cevap
çeşitlendirme yaklaşımı önerilmiş, denetimli makine öğrenmesi kullanan cevap çeşitlendirme
yaklaşımları geliştirilmiş, görsel arama senaryosu için yine denetimli öğrenme kullanan bir
yaklaşım genişletilmiş, ve her sorgu için aday cevap kümesi büyüklüğünü kestirmek üzere bir
yaklaşım önerilmiştir. Bu yaklaşımların her birinin literatürdeki rakiplerinden etkinlik ve/veya
verimlilik bazında daha başarılı olduğu gösterilmiştir.
İkinci hedef olan 'Cevap çeşitlendirme yöntemlerinde ölçeklenebilirlik' kapsamında cevap
çeşitlendirme başarımı dağıtık mimarinin farklı katmanlarında ve sorgu işlemenin farklı
aşamalarında incelenmiş, ve çeşitlendirme sırasında belgelerin kelime kodlamaları (word
embeddings) kullanılarak temsil edilmesi önerilmiştir. Ele alınan dağıtık arama senaryosunda
hem çeşitlendirme başarımının hem verimliliğin arttığı gösterilmiştir.
Üçüncü hedef olan 'Cevap çeşitlendirme yöntemlerinin diğer verimlilik-odaklı bileşenlerle
etkileşimi' kapsamında ise öncelikle cevap önbelleklerinde frekans geçmişini saklamak için bir
yaklaşım uyarlanmış, ikinci olarak dinamik budama yaklaşımlarında verimliliği artıran bir skor
önbelleği önerilmiş ve son olarak da çeşitlendirme-farkında bir statik endeks budama yöntemi
geliştirilmiştir. Böylece arama motorlarında en çok kullanılan önbellekleme, dinamik budama
ve statik endeks budama mekanizmalarının cevap çeşitlendirmeyle etkileşimine ışık tutulmuş
ve/veya bu mekanizmalar cevap çeşitlendirmeyi destekleyecek şekilde geliştirilmiştir.
Son hedefimiz olan 'Prototip tweet-arama sistemi' kapsamındaysa ilk olarak literatürde farklı
alanlardaki yöntemleri de kapsayan bir cevap çeşitlendirme kütüphanesi gerçeklenmiş ve bu
yöntemlerin başarımları değerlendirilmiştir. İkinci olarak da verimli çeşitlendirme yöntemlerinin
kullanıldığı ve başarısının gösterildiği faydalı bir uygulama olarak Türkçe sorgular için Twitter
API ile elde edilen cevapların çeşitlendirildiği bir prototip arama sistemi gerçeklenmiştir
Topic-centric querying of web resources
Cataloged from PDF version of article.Altıngövde, İsmail SengörM.S
Caching Scores for Faster Query Processing with Dynamic Pruning in Search Engines
We propose to use a score cache, which stores the score of the k.th result of a query, to accelerate top-k query processing with dynamic pruning methods (i.e., WAND and BMW). We introduce heuristics that, for a new query, generate its subsets and probe the score cache to obtain a lower-bound on its score threshold. Our experiments show up to 8.6% savings in mean processing time for the queries that are not seen before, i.e., cannot benefit from a result cache
Impact of Regionalization on Performance of Web Search Engine Result Caches
Large-scale web search engines are known to maintain caches that store the results of previously issued queries. They are also known to customize their search results in different forms to improve the relevance of their results to a particular group of users. In this paper, we show that the regionalization of search results decreases the hit rates attained by a result cache. As a remedy, we investigate result prefetching strategies that aim to recover the hit rate sacrificed to search result regionalization. Our results indicate that prefetching achieves a reasonable increase in the result cache hit rate under regionalization of search results
Arama Motorlarında Endeks Budama için Cevap Çeşitliliği Odaklı Algoritmalar
Arama motorları günümüzde web üzerinde bilgiye erişimin en temel yöntemlerinden biridir. Bir taraftan kurumlar ve bireyler tarafından üretilen dijital veri hacmi artarken, diğer taraftan da kullanıcıların her geçen gün daha hızlı ve kaliteli sorgu cevapları talep etmesi, arama motorları alanında hem verimlilik hem de cevap kalitesi açısından sürekli yeni ve akılcı yöntemlerin geliştirilmesini gerektirmektedir. Bu projede temel amaç, arama motorlarının verimliliği ve ölçeklenebilirliği için önemli bir mekanizma olan statik endeks budama (static index pruning) yöntemlerini, cevap kalitesi için yeni bir kriter olan sorgu cevaplarının çeşitliliği (result diversity) açısından değerlendirmek ve cevap çeşitliliğini korumaya ya da artırmaya odaklanmış yeni budama yöntemleri geliştirmektir
Query performance prediction for aspect weighting in search result diversification
Accurate estimation of query aspect weights is an important issue to improve the performance of explicit search result diversification algorithms. For the first time in the literature, we propose using post-retrieval query performance predictors (QPPs) to estimate, for each aspect, the retrieval effectiveness on the candidate document set, and leverage these estimations to set the aspect weights. In addition to utilizing well-known QPPs from the literature, we also introduce three new QPPs that are based on score distributions and hence, can be employed for online query processing in real-life search engines. Our exhaustive experiments reveal that using QPPs for aspect weighting improves almost all state-of-the-art diversification algorithms in comparison to using a uniform weight estimator. Furthermore, the proposed QPPs are comparable or superior to the existing predictors in the context of aspect weighting.Accurate estimation of query aspect weights is an important issue to improve the performance of explicit search result diversification algorithms. For the first time in the literature, we propose using post-retrieval query performance predictors (QPPs) to estimate, for each aspect, the retrieval effectiveness on the candidate document set, and leverage these estimations to set the aspect weights. In addition to utilizing well-known QPPs from the literature, we also introduce three new QPPs that are based on score distributions and hence, can be employed for online query processing in real-life search engines. Our exhaustive experiments reveal that using QPPs for aspect weighting improves almost all state-of-the-art diversification algorithms in comparison to using a uniform weight estimator. Furthermore, the proposed QPPs are comparable or superior to the existing predictors in the context of aspect weighting
- …